Cos'è kolmogorov smirnov test?

Test di Kolmogorov-Smirnov

Il test di Kolmogorov-Smirnov (K-S) è un test non parametrico utilizzato per confrontare un campione di dati con una distribuzione di riferimento, oppure per confrontare due campioni di dati tra loro. È un test di bontà di adattamento e omogeneità. A differenza di molti altri test, il test K-S non fa assunzioni sulla distribuzione dei dati.

Scopo del Test

Il test di Kolmogorov-Smirnov risponde a domande come:

  • I dati del mio campione seguono una distribuzione normale? (Test di bontà di adattamento)
  • Due campioni di dati provengono dalla stessa distribuzione? (Test di omogeneità)

Tipologie di Test

Esistono due principali varianti del test di Kolmogorov-Smirnov:

  1. Test di bontà di adattamento: Questo test confronta la funzione di ripartizione empirica di un campione con la funzione di ripartizione teorica di una distribuzione specifica (ad esempio, normale, esponenziale, uniforme). L'ipotesi nulla (H0) è che il campione sia estratto dalla distribuzione specificata. Per saperne di più sulla funzione%20di%20ripartizione.

  2. Test dei due campioni: Questo test confronta le funzioni di ripartizione empiriche di due campioni indipendenti. L'ipotesi nulla (H0) è che i due campioni provengano dalla stessa distribuzione. Per saperne di più sulla distribuzione%20campionaria.

Statistica Test

La statistica test nel test K-S è la massima distanza verticale tra la funzione di ripartizione empirica del campione (o dei campioni) e la funzione di ripartizione teorica (o la funzione di ripartizione empirica dell'altro campione). Questa distanza è spesso indicata come la statistica D. Un valore elevato di D suggerisce che i dati non corrispondono bene alla distribuzione di riferimento (nel caso del test di bontà di adattamento) o che i due campioni provengono da distribuzioni diverse (nel caso del test dei due campioni). Per saperne di più sulla statistica%20test.

Calcolo del P-value

Il p-value associato al test K-S indica la probabilità di osservare un valore della statistica test D uguale o maggiore di quello osservato, assumendo che l'ipotesi nulla sia vera. Un p-value basso (tipicamente inferiore a 0.05) suggerisce che l'ipotesi nulla dovrebbe essere rifiutata. Per saperne di più sul p-value.

Vantaggi del Test K-S

  • Non parametrico: Non richiede assunzioni sulla distribuzione dei dati.
  • Facile da implementare: Esistono funzioni implementate in molti pacchetti statistici (R, Python, ecc.).
  • Versatile: Può essere utilizzato per confrontare un campione con una distribuzione teorica o per confrontare due campioni tra loro.

Svantaggi del Test K-S

  • Sensibilità agli outlier: È sensibile alla presenza di outlier nei dati.
  • Meno potente di altri test: Può essere meno potente di altri test parametrici quando le assunzioni di questi ultimi sono soddisfatte.
  • Ipotesi nulla: L'ipotesi nulla è specifica, ma non fornisce informazioni su quale sia la distribuzione effettiva se l'ipotesi nulla viene rifiutata.

Utilizzo

Il test K-S viene utilizzato in una varietà di campi, tra cui:

  • Medicina: Per confrontare la distribuzione di variabili cliniche tra gruppi di pazienti.
  • Finanza: Per testare se i rendimenti azionari seguono una distribuzione normale.
  • Ingegneria: Per confrontare la distribuzione di misure di qualità tra diversi processi produttivi.
  • Scienze ambientali: Per confrontare la distribuzione di concentrazioni di inquinanti in diverse aree.